2024 iThome 鐵人賽

DAY 5

生成式 AI

運用生成式 AI 服務所提供的API 實做應用開發（以Gemini及ChatGPT為例）系列第 5 篇

1-4 LLMs API 之後可能功能的展望

16th鐵人賽

Wolke

2024-08-05 07:41:44

2515 瀏覽

分享至

1-4 LLMs API 之後可能功能的展望

隨著大規模語言模型（LLMs）的快速發展，我們可以期待這些技術在未來的API中展現出更為強大的功能和多樣化的應用場景。以下是一些可能的發展方向：

輸入形式的多樣化

文字輸入

目前，LLMs主要處理文字輸入，包括問答、文本生成、翻譯等。未來，我們可以期待更多的高級功能，如上下文感知的文本分析、情感分析和高精度的自動摘要等。

圖片輸入

LLMs的進步將使它們能夠更好地處理圖片輸入。這包括圖片識別、圖片描述生成、圖片中的文字識別（OCR）等。這樣的功能可以應用在監控、醫療影像分析和自動駕駛等領域。

聲音輸入

語音識別和自然語言處理的結合將使LLMs能夠處理聲音輸入。這包括語音轉文字（STT）、語音命令識別和語音情感分析等。這些功能將在智能家居、客服系統和語音助理中有廣泛應用。

影片輸入

處理影片輸入是LLMs未來的一個重要發展方向。這不僅包括對影片內容的分析，如場景識別、人物識別、動作分析等，還包括生成影片描述、影片標註和自動剪輯等功能。

輸出形式的多樣化

文字輸出

在現有的基礎上，LLMs的文字輸出將變得更加智能和多樣化。這包括更自然的對話生成、高精度的技術文檔生成、個性化推薦等。

圖片輸出

隨著生成對抗網絡（GANs）等技術的進步，LLMs將能夠生成高質量的圖片。這包括創意設計、數據可視化、自動繪圖等。這些功能可以在藝術創作、廣告設計和教育中發揮重要作用。

聲音輸出

LLMs將能夠生成自然且情感豐富的語音輸出。這包括文本轉語音（TTS）、虛擬主播、語音模擬等。這些功能可以應用在廣播、語音導航、電子書等領域。

影片輸出

影片生成技術的發展將使LLMs能夠生成高質量的影片內容。這包括動畫製作、自動影片剪輯、虛擬導演等。這些功能將在電影製作、廣告和遊戲開發中有廣泛應用。

結論

總的來說，LLMs的未來發展將大大擴展其輸入和輸出的多樣性，並且在各個行業中發揮重要作用。通過整合多媒體數據處理能力，LLMs將成為更加強大和智能的工具，幫助我們應對各種複雜的任務和挑戰。隨著技術的不斷進步，我們可以期待LLMs在未來帶來更多的創新和變革。

目前應用情況

平台	輸入形式	輸出形式
ChatGPT APP	所有檔案格式	文字、圖片 🖼️
ChatGPT API	圖片 🖼️	僅文字
Gemini APP	圖片 🖼️、聲音 🎵、影片 🎬	文字、圖片 🖼️
Gemini API	所有檔案格式	僅文字

2024.07

這些平台和API的功能展示了目前技術的能力和局限性，並為未來的發展提供了基礎。隨著技術的進一步完善和創新，預計在不久的將來，這些功能將會更加強大和多樣化。

關於我

我是 Wolke。我是一名專業程式開發者，專長是開發 AI 和程式解決方案。

我投入了不少時間在專業發展上。我是多本書的作者，其中包括《LINE聊天機器人+AI+雲端+開源+程式：輕鬆入門到完整學習》和《ChatGPT來襲，未來人人都需具備的運算思維！應用詠唱工程來釋放程式生產力—程式學習/開發篇》。也有出版線上課程，我熱衷於分享我的經驗和技術，幫助其他開發者更好地利用 AI 工具。

也在許多知名大學、論壇、社團擔任講者，如果貴方有需要也歡迎與我聯繫。
2023年講座紀錄

最後這篇文章若有切合你的需求，敬請訂閱按讚分享

好書推薦

本系列相關內容已轉載及加強到筆者 2025 年所出版之

全面掌握 Gemini 開發實務：輕鬆駕馭 Google AI 引擎

編寫有效的提示：了解如何撰寫清晰、準確的指令，引導 Gemini 模型生成高質量的回應，從日常應用到複雜專案都能得心應手。
微調 Gemini 模型：深入探索模型微調技巧，根據您的專案需求調整參數，實現個性化應用，讓AI成為您專屬的智慧助理。
整合 Gemini API：完整解讀 API 功能，學習如何將其融入現有系統或打造全新的應用，充分利用 Google AI 生態系統的強大資源。

購買連結🔗 Momo🛍️ 博客來📚 誠品📘 金石堂📖天瓏

若這篇文章對您有實質幫助🙏，還望購買書籍📚，是對筆者最實質的鼓勵🥰。

1-3 主流大型語言模型（LLM）的對比與評價

1-5 撰寫Prompt與System Instructions的五個基本原則

系列文

運用生成式 AI 服務所提供的API 實做應用開發（以Gemini及ChatGPT為例）共 44 篇

RSS系列文訂閱系列文

74 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

運用生成式 AI 服務 所提供的API 實做應用開發（以Gemini及ChatGPT為例）系列 第 5 篇